我们提出了一个系统,用于准确预测各种刚性物体的稳定取向。我们建议通过使用条件生成模型准确地对接触表面进行分类,以克服旋转空间中多模式建模的关键问题。我们的系统能够从现实世界深度摄像机捕获的嘈杂和部分观察的点云观测中运行。我们的方法在模拟堆叠任务上大大优于需要高度准确旋转的当前最新系统,并在现实世界重新定向任务上展示了强大的SIM2REAL零拍传输结果。项目网站:\ url {https://richardrl.github.io/stable-reorientation/}
translated by 谷歌翻译
自从神经辐射场(NERF)出现以来,神经渲染引起了极大的关注,并且已经大大推动了新型视图合成的最新作品。最近的重点是在模型上过度适合单个场景,以及学习模型的一些尝试,这些模型可以综合看不见的场景的新型视图,主要包括将深度卷积特征与类似NERF的模型组合在一起。我们提出了一个不同的范式,不需要深层特征,也不需要类似NERF的体积渲染。我们的方法能够直接从现场采样的贴片集中直接预测目标射线的颜色。我们首先利用表现几何形状沿着每个参考视图的异性线提取斑块。每个贴片线性地投影到1D特征向量和一系列变压器处理集合中。对于位置编码,我们像在光场表示中一样对射线进行参数化,并且至关重要的差异是坐标是相对于目标射线的规范化的,这使我们的方法与参考帧无关并改善了概括。我们表明,即使接受比先前的工作要少得多的数据训练,我们的方法在新颖的综合综合方面都超出了最新的视图综合。
translated by 谷歌翻译
新型视图综合的古典光场渲染可以准确地再现视图依赖性效果,例如反射,折射和半透明,但需要一个致密的视图采样的场景。基于几何重建的方法只需要稀疏的视图,但不能准确地模拟非兰伯语的效果。我们介绍了一个模型,它结合了强度并减轻了这两个方向的局限性。通过在光场的四维表示上操作,我们的模型学会准确表示依赖视图效果。通过在训练和推理期间强制执行几何约束,从稀疏的视图集中毫无屏蔽地学习场景几何。具体地,我们介绍了一种基于两级变压器的模型,首先沿着ePipoll线汇总特征,然后沿参考视图聚合特征以产生目标射线的颜色。我们的模型在多个前进和360 {\ DEG}数据集中优于最先进的,具有较大的差别依赖变化的场景更大的边缘。
translated by 谷歌翻译
单图像姿势估计是许多视觉和机器人任务中的一个基本问题,并且现有的深度学习方法不会完全建模和处理来遭受:i)关于预测的不确定性,ii)具有多个(有时是无限)正确姿势的对称对象。为此,我们引入了一种在SO(3)上估算任意非参数分布的方法。我们的关键思想是通过神经网络隐含地表示分布,该神经网络估计给定输入图像和候选姿势的概率。网格采样或梯度上升可用于找到最有可能的姿势,但也可以评估任何姿势的概率,从而实现关于对称性和不确定性的推理。这是代表流形分布的最通用方法,为了展示丰富的表现力,我们介绍了一个具有挑战性的对称和几乎对称对象的数据集。我们不需要对姿势不确定性的监督 - 模型仅以一个示例训练单个姿势。但是,我们的隐式模型具有高度表达能力在3D姿势上处理复杂的分布,同时仍然在标准的非歧义环境上获得准确的姿势估计,从而在Pascal3d+和ModelNet10-SO-SO(3)基准方面实现了最先进的性能。
translated by 谷歌翻译
代表性学习形成最深入的学习应用的骨干,并且学习表示的值与其关于不同变异因素的信息内容密切相关。找到良好的表现取决于监督和学习算法的性质。我们提出了一种新颖的算法,该算法利用弱形的监督形式,其中数据根据各种变体的某些无效(常见)因子来划分到集合中,这些因素在每个集合的元素中不变。我们的主要识别是,通过寻求不同集合之间的对应,我们学习强烈的表示,排除了变异的非活动因素,并隔离了所有集合中变化的活动(不同)因素。由于重点关注有源因素,我们的方法可以利用设定监督和全文无监督数据的混合,甚至可以属于不同的域。我们通过将概括到类别水平和综合/真实域间隙的图像姿势信息隔离,解决综合对象姿势转移的具有挑战性问题,即使没有对任何内容的姿势注释也没有姿势注释。通过加强中间表示,该方法还可以提高监督设置的性能。
translated by 谷歌翻译
我们介绍了与给定单个图像的任意长相机轨迹相对应的长期视图的新面积视图的问题。这是一个具有挑战性的问题,远远超出了当前视图合成方法的能力,这在提出大型摄像机运动时快速退化。用于视频生成的方法也具有有限的生产长序列的能力,并且通常不适用于场景几何形状。我们采用混合方法,它以迭代`\ emph {render},\ emph {refine},\ emph {重复}'框架集成了几何和图像合成,允许在数百帧之后覆盖大距离的远程生成。我们的方法可以从一组单目的视频序列训练。我们提出了一个沿海场景的空中镜头数据集,并比较了我们最近的观看综合和有条件的视频生成基线的方法,表明它可以在与现有方法相比,在大型相机轨迹上产生更长的时间范围。项目页面https://infinite-nature.github.io/。
translated by 谷歌翻译
Training parts from ShapeNet. (b) t-SNE plot of part embeddings. (c) Reconstructing entire scenes with Local Implicit Grids Figure 1:We learn an embedding of parts from objects in ShapeNet [3] using a part autoencoder with an implicit decoder. We show that this representation of parts is generalizable across object categories, and easily scalable to large scenes. By localizing implicit functions in a grid, we are able to reconstruct entire scenes from points via optimization of the latent grid.
translated by 谷歌翻译
本文考虑了学习历史依赖性任务规范的问题,例如,来自专家演示的自动机和时间逻辑。不幸的是,所考虑的(可爱的无限)的任务数结合了一个优先考虑对所历史特征进行编码所需的历史特征,使得现有的学习任务免受示范不适用的方法。为了解决这一赤字,我们提出了通过黑匣子访问(i)最大熵计划和(ii)用于识别概念,例如自动机的算法,从标记的示例识别概念的算法的算法通过在(i)之间的交替之间的标有标记的例子之间的作用,以使示威性令人惊讶和(ii)与当前标记的实施例一致的采样概念。在确定性有限自动机描述的任务的背景下,我们提供了一种有效地结合了任务的部分知识和单一专家演示来识别完整任务规范的具体实施。
translated by 谷歌翻译